音声情報処理 06
基本周波数抽出と連続発声された⾳声の認識
声の高さ
基本周波数の抽出
方法
⾳声信号の⾃⼰相関係数から基本周波数を算出
相関値のピークを⽰す遅れ時間幅を計算する
⾃⼰相関係数
過去の系列のどこに似ているのか
周期的な信号
過去の中で相関値が⾼い≒周期
ケフレンシーを参照して基本周波数を算出
基本周波数推定における問題点
2倍の周期や1/2の周期が基本周波数として抽出されることもある
半ピッチ,倍ピッチエラーと言われる
⾳楽における基本周波数の推定では分解能 Optical resolutionのトレードオフが⼤きな問題
周波数分解能を上げる
細かな音高を検出可能
細かなリズムが捉えきれない
時間分解能を上げる
細かなリズムを検出可能
⾳⾼の差を捉えきれない
対象音楽の標準的なBPM Beat Per Minutesをもとに時間分解能を決める事多い
音楽 Musicの時間分解能の計算
BPM Beat Per Minutes
1分間(60秒)内での4分⾳符の数
連続発声された⾳声
基本的な⾳響特徴量の抽出は定常過程とみなせる区間を対象とする
実際の発話から得られる⾳声信号は⾮定常
定常過程
変わってない部分
定常過程とみなせる区間を連続的に移動させて分析
各区間の⾳響特徴量の変化を捉える • 多次元ベクトルが時間的に変化する
分析フレームとシフト幅
フレーム⻑
定常過程をおく分析区間
シフト⻑
フレームの移動時間幅
副次的な特徴量の抽出
⊿特徴量
フレーム間の変化量
フレームとフレームの間でどのように特徴量が変化したのか
⊿ ⊿特徴量
フレーム間の変化量の変化
「フレーム間の特徴量の変化」がどのように変化したのか
特微量の次元をd次元とすると,⊿特徴量と⊿⊿特徴量を含めると1フレームあたり,d⊿特徴量が得られる
特徴量には,スペクトラル包絡,RMS値,基本周波数など様々な特徴がベクトルとして抽出される
⾳同⼠の距離尺度
2⾳(2フレーム)の⾳響的差異
フレーム間の⾳響特徴量の差異で定量的に計算可能
⾳⾼の差異
基本周波数の対数の差
⾳⾊(スペクトラル包絡)の差異
ケプストラム係数の差
時間構造が異なる⾳の⽐較
時間的違いを考慮したい
2種類の⾳の時間帳が等しく,それぞれの⾳のフレームが対応していれば, $ d_{spec}(S,T) をフレーム分だけ累積すれば良い
実際には,同じ単語でも発声⻑はいろいろな要因で異なる
⾔い直し,⺟⾳,2回繰り返し
異なる単語間の対応関係は不明
累積距離が最⼩となるような対応付けを求める
最⼩累積距離を2⾳の距離とする
Dynamic Time Warping DTW
距離の求め方
DP マッチングとレーベンシュタイン距離
DP マッチング
累積距離が最⼩となるパスを探す
実は,レーベンシュタイン距離の連続値版
レーベンシュタイン距離との違い
レーベンシュタイン距離
⽂字の⼀致/不⼀致 = 0/1
DPマッチング
特徴ベクトルの類似度 = 連続値
DPマッチングにおける距離の計算